O presente projeto tem como objetivo usar os dados que já está por padrão no Sklearn. Será previsto o valor dos imóveis de uma determinada cidade que no caso será Boston/EUA.
Simularemos uma contratação para o desenvolvimento de um tecnologia usando ciência de dados que de a melhor acertividade para alguem que gostaria de prever um valor de um imóvel, a qual pode ser uma imobiliária ou um Vendedor de casa.
Como será feita a previsão do imóvel ?
Baseado nas características do imóvel o objetivo é estimar o preço mais acertivo do imóvel. A partir dos dados fornecidos o aplicativo irá estimar um valor para o imóvel, que no caso será um valor acertivo baseado na base de dados de seu conhecimento prévio. Então, a partir dos atributos dos imóveis o app fará uma estimativa, ou seja, uma previsão de qual seria o valor ideal para aquele imóvel.
Qual o objetivo da Análise ?
O aplicativo estimar o valor para o imóvel baseado na caractéristica do imóvel.
Quais passos serão aplicados?
Coleta de dados -> Limpeza e Transformação dos dados -> Análise e Exploração -> Criação de Modelos -> Interpretação dos Resultados
Arquitetura da Solução
O usuário acessa a aplicação a qual acessa o modelo e dataset criado que retorna a requisição.
Ferramentas utilizadas Python, Matplotlib, Numpy, Pandas,Scikitlearn, Jupyter e Colab.
Importando as bibliotecas básicas
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
Carregando a Base de Dados
# carrega o dataset de london
from sklearn.datasets import load_boston
boston = load_boston()
# descrição do dataset
print (boston.DESCR)
# cria um dataframe pandas
data = pd.DataFrame(boston.data, columns=boston.feature_names)
# imprime as 5 primeiras linhas do dataset
data.head()
Conhecendo as colunas da base de dados
CRIM: Taxa de criminalidade per capita por região.
ZN: Proporção de terrenos residenciais divididos por lotes com mais de 25.000 pés quadrados.
INDUS: Essa é a proporção de hectares de negócios não comerciais por região.
CHAS: variável fictícia Charles River (= 1 se o trecho limita o rio; 0 caso contrário)
NOX: concentração de óxido nítrico (partes por 10 milhões)
RM: Número médio de quartos entre as casas do bairro
Age: proporção de unidades ocupadas pelos proprietários construídas antes de 1940
DIS: distâncias ponderadas para cinco centros de emprego em Boston
RAD: Índice de acessibilidade às rodovias radiais
IMPOSTO: taxa do imposto sobre a propriedade de valor total por US $ 10.000
B: 1000 (Bk - 0,63) ², onde Bk é a proporção de pessoas de descendência afro-americana por regiao
PTRATIO: Bairros com maior proporção de alunos para professores (maior valor de 'PTRATIO')
LSTAT: porcentagem de status mais baixo da população
MEDV: valor médio de casas ocupadas pelos proprietários em US $ 1000
Adicionando a coluna que será nossa variável alvo
# adiciona a variável MEDV
data['MEDV'] = boston.target
# imprime as 5 primeiras linhas do dataframe
data.head()
data.describe()
# import o ProfileReport
from pandas_profiling import ProfileReport
# executando o profile
profile = ProfileReport(data, title='Relatório - Pandas Profiling', html={'style':{'full_width':True}})
profile